7월, 2025의 게시물 표시
이미지
AI, 당신의 화장품도 설계한다? 인공지능이 바꿔놓는 화장품의 미래 “내 피부에 딱 맞는 화장품, 어떻게 만들 수 있을까?” 몇 년 전만 해도 감에 의존해 하나씩 실험해보는 수밖에 없었다. 하지만 이제는 다르다. 인공지능(AI)이 화장품 개발에도 뛰어든 것이다. 성분 조합, 사용감, 안정성, 심지어 알레르기 유발 가능성까지 AI가 미리 예측한다. 이른바 ‘똑똑한 화장품’의 시대가 열리고 있는 셈이다. 이탈리아 로마의 사피엔자 대학교와 IDI-IRCCS 피부연구병원 연구진은 최근 논문을 통해, AI가 화장품 개발의 전 과정에서 어떤 역할을 할 수 있는지를 체계적으로 정리 했다. 그 내용을 따라가다 보면, 미래의 화장품이 어떤 방식으로 우리 삶에 들어올지 짐작할 수 있다. 시도는 끝났다, 이제는 ‘예측의 시대’ 전통적인 화장품 개발은 ‘해보고, 안 되면 다시’의 연속이었다. 점성, 향, 안정성, 자극 여부 등 확인해야 할 요소가 많다 보니 시간이 오래 걸리고 비용도 많이 들었다. 무엇보다 예상치 못한 피부 트러블은 제품의 생명을 단숨에 끊어놓을 수도 있었다. 이제는 AI가 이런 고민을 덜어준다. 화장품을 구성하는 계면활성제, 폴리머, 향료, 방부제, 항산화제, 프리바이오틱스 등 각각의 성분에 대해, AI는 사전에 ‘이 조합이면 어떤 결과가 나올지’ 예측해준다. 예를 들어, 특정 계면활성제가 얼마나 거품을 잘 내는지, 독성이 있는지, 자연 분해는 잘 되는지 등을 AI가 분석한다. 수백 개의 샘플 데이터를 기반으로 한 예측 정확도는 무려 77%에 달한다 고 한다. AI가 짚어주는 향기, 촉감, 안정성까지 향도 마찬가지다. 예전엔 조향사들이 감각과 경험에 의존해 만들었지만, 이제는 그래프 신경망(GNN) 같은 AI 기술이 ‘좋은 향기의 분자 구조’를 분석해 새로운 향료 조합을 제안해준다. 사용자의 감정 반응까지 고려해 향을 설계하는 수준에 이른 것이다. 사용감도 예외가 아니다. 어떤 크림이 부드럽게 느껴지는지, 끈적이지 않는지...

온라인 학습자들은 어떻게 자기주도적으로 모델링을 할까?

이미지
행동 분석 연구로 본 AI 교육의 미래 서론: 자기주도 학습, 그 핵심은 모델링 디지털 시대에 자기주도 학습(self-directed learning)의 중요성은 날로 커지고 있다. 위키피디아, MOOC, Reddit, Scratch와 같은 플랫폼은 이제 교실 밖에서 이루어지는 자발적 학습의 거대한 무대가 되었다. 그런데, 이런 학습 환경에서 학습자들은 과연 어떻게 문제를 설정하고, 실험을 설계하며, 데이터를 분석할까? 이에 대한 답을 제시하는 것이 이번에 분석할 논문이다. 본 연구는 온라인 생태계 모델링 도구인 VERA를 활용하여 수백 명의 자발적 학습자가 실제로 어떻게 모델링을 수행하고 있는지를 행동 로그 데이터를 바탕으로 정량적 분석을 시도한 보기 드문 사례이다. 기존의 대부분의 모델링 연구가 교실 기반 또는 교사 주도의 환경에서 이루어졌다면, 이 논문은 완전히 열린 온라인 환경에서 학습자가 스스로 주제를 선택하고, 모델을 만들고, 시뮬레이션을 수행하며 지식을 구성하는 과정을 다룬다. 이는 '학습의 주체'가 누구인가에 대한 교육학적 질문에 기술적·실증적 답을 제시하는 점에서 매우 흥미롭다. 특히 VERA라는 툴은 시각적 모델링 인터페이스, NetLogo 시뮬레이션 엔진과 함께 방대한 생물 다양성 데이터(EOL)를 활용해 학습자가 현실 세계의 생태계 현상을 직접 재현하고 실험할 수 있도록 돕는다. 이러한 도구는 단순한 관찰을 넘어서 '과학자처럼 사고하기'를 가능하게 한다는 점에서 교육적 의의가 크다. ` 본론 1: 자기주도 모델링의 세 가지 행동 유형 — 관찰, 구성, 탐색 연구팀은 315명의 온라인 학습자가 만든 822개의 모델을 분석해 세 가지 주요 행동 유형을 도출했다. 이들은 각각 관찰(Observation), 구성(Construction), 탐색(Exploration)으로 명명되었다. 관찰(O...

스마트폰과 인공지능으로 시력 검사를? 저소득 국가를 위한 '딥러닝 시력 스크리닝' 기술의 가능성

이미지
  서론: 안경 하나로 바뀌는 삶, 그러나 그것조차 어려운 현실 전 세계적으로 약 15억 명이 시력 문제를 겪고 있으며, 그 중 1억 5천만 명은 단순한 굴절 이상(근시, 원시 등)이 교정되지 않은 상태로 살아가고 있다. 안경이나 콘택트렌즈 같은 저비용 치료법이 있음에도 불구하고, 많은 이들이 시력 교정을 받지 못하는 이유는 '진단의 부재' 때문이다. 특히 저소득 국가에서는 전문 인력 부족, 진단 장비 부족, 인식 부족 등의 복합적인 요인으로 인해 시력 검사가 쉽지 않다. 이러한 문제를 해결하기 위해 최근 한 연구진이 매우 흥미로운 접근법을 제안했다. 스마트폰 카메라로 눈 사진을 찍고, 인공지능(CNN: 합성곱 신경망)이 이를 분석해 굴절 이상을 자동으로 진단하는 시스템이다. 특히 이 연구는 동남아시아 실제 환자 데이터를 활용해, 현장 적용 가능성까지 고려했다는 점에서 주목할 만하다. 본론: 연구의 핵심 – 스마트폰과 다중 분기 CNN의 만남 1. 문제 정의와 접근 방식 연구팀은 굴절 이상을 크게 네 가지로 분류했다: 1) 유의한 근시, 2) 유의한 원시, 3) 비유의미한 굴절 이상, 4) 분류 불가. 이들을 정확히 분류하기 위해 '다중 분기 CNN (multi-branch CNN)' 구조를 제안했다. 이 구조는 이미지를 서로 다른 해상도와 시각적 관점으로 병렬 처리해, 미세한 차이를 보다 효과적으로 인식할 수 있도록 설계됐다. 2. 데이터 수집과 전처리 데이터는 인도네시아 공공 안과 병원에서 952명의 환자에게서 수집된 2,139장의 홍채 이미지로 구성됐다. 이 이미지는 어두운 방에서 스마트폰(iPhone 6s)으로 촬영되었고, 빛 반사(레드 리플렉스)의 모양에 따라 굴절 이상을 분류했다. 예를 들어, 오른쪽에 초승달 모양의 반사가 보이면 근시를, 왼쪽에 있으면 원시를 의미한다. 3. 모델 구조와 성능 총 세 가지 모델이 실험에 사용되었고, 이 중 3-분기 CNN이 최고 성능을 보였다. 정확도 91%, 정밀도 96%, 재...

컴퓨터 비전 시스템을 위한 소스코드 자동 생성: 딥러닝 기반 CNN 접근법의 혁신

이미지
들어가며 인공지능(AI) 기술의 발전은 단순한 데이터 처리 수준을 넘어, 복잡한 문제 해결 능력까지 확보하게 만들었다. 그중에서도 딥러닝 기반의 소스코드 자동 생성 기술은, 개발자의 손을 거치지 않고도 기능적으로 올바른 프로그램을 작성할 수 있는 잠재력을 지닌 분야로 주목받고 있다. 특히 컴퓨터 비전 시스템은 높은 연산 복잡도와 정확성을 요구하기 때문에, 코드 생성의 자동화는 실질적인 생산성 향상과 직결된다. 소스코드 자동 생성, 왜 어려운가? 자연어로 설명된 요구사항을 기반으로 실제 실행 가능한 프로그램을 생성하려면, 모델은 문법적 정확성과 함께 기능적 의미까지 파악해야 한다. 시퀀스 기반(seq2seq) 모델은 입력 문장을 토큰으로 나눠 이를 그대로 코드로 바꾸는 방식을 사용하지만, 이는 프로그램의 계층 구조나 문법적 규칙을 보장하기 어렵다는 한계가 있다. AST와 CNN: 구조적 정확성을 향한 진보 이 연구에서는 이러한 한계를 극복하기 위해 문법 기반의 CNN(합성곱 신경망) 구조와 추상 구문 트리(Abstract Syntax Tree, AST)을 결합한 방식을 제안한다. AST는 코드의 구조를 트리 형태로 표현함으로써 문법적 일관성을 보장하고, CNN은 지역적인 문맥 특징을 효율적으로 포착하여 문법 규칙 예측의 정확도를 높인다. 이와 같은 접근은 기존의 LSTM이나 RNN 기반 구조보다 병렬처리에 유리하고, 긴 시퀀스에서도 안정적으로 작동할 수 있는 장점이 있다. AST2CVCode: 컴퓨터 비전을 위한 새로운 데이터셋 본 연구의 중요한 기여 중 하나는 컴퓨터 비전 분야에 특화된 AST2CVCode라는 데이터셋을 구축했다는 점이다. 이 데이터셋은 이미지 분류, 객체 탐지와 같은 컴퓨터 비전 코드 샘플 65개를 기반으로 하며, 코드의 AST 구조와 문법 규칙, 함수 리스트, 자연어 설명 등을 포함하여 모델 훈련에 최적화되었다. 비록 샘플 수는 적지만, 도메인 특화된 데이터는 모델이 실질적으로 유용한 코드를 생성할 ...

국가 인프라를 노리는 해커들, AI가 막아설 수 있을까?

이미지
  — 'AIM-PRISM'이란 이름의 사이버 보안 전략이 등장했다 전기, 수도, 교통, 금융 시스템. 이 네 글자는 일상에서 무심코 지나치지만, 사실 우리가 살아가기 위한 ‘기본 중의 기본’이다. 그런데 이 필수 시스템들이 이제 해커들의 주요 타깃이 되고 있다. 단순히 웹사이트를 마비시키는 수준이 아니라, 국가 전체를 마비시킬 수도 있는 정밀하고 지속적인 사이버 공격이 현실이 된 지금, 도대체 우리는 어떻게 이런 위협에 맞설 수 있을까? 바로 이 질문에 답하기 위해 한 연구자가 나섰다. 카타르 내무부 기술 담당자인 만수르 알타니는 인공지능(AI)과 머신러닝(ML)을 이용한 새로운 사이버 보안 전략 모델, **‘AIM-PRISM’**을 제안했다. 단순한 기술 제안이 아니다. 국가 기반 시설 전체를 아우를 수 있는 전략 프레임워크다. AI는 왜 필요한가? '눈치 빠른 해커'에게 당하는 기존 시스템 최근의 사이버 공격은 더 똑똑하고, 더 빠르고, 무엇보다도 더 교묘하다. 예전처럼 정해진 규칙을 어기는 단순한 방식이 아니라, 정상인 척 행동하면서 뒤로 몰래 데이터를 훔치거나 시스템을 마비시키는 일이 늘어나고 있다. 예컨대, 어느 날 한 공무원이 밤중에 대량의 내부 데이터를 다운로드한다면? 그게 단순한 실수인지, 아니면 내부자가 해커에게 매수된 것인지를 사람이 일일이 판단하기엔 너무 늦다. 이때 AI는 평소의 행동 패턴과 비교해 이상징후를 실시간으로 포착할 수 있다. 뿐만 아니라, AI는 미래를 예측한다. 이전의 공격 데이터를 학습해 “다음 공격이 어디를 노릴지”까지 미리 알려주는 것이다. 이런 능력은 전력망이나 지하철 같은 필수 시스템을 지키는 데 매우 중요하다. AIM-PRISM, 단순한 기술이 아니라 전략이다 하지만 문제는, 각 기관이나 부처가 AI를 따로따로 도입하면서 전체적인 전략이 없다는 점이다. 그래서 알타니 연구자는 이를 통합적으로 묶어줄 AIM-PRISM 이라는 8가지 구성 요소의 전...

증강현실 사회미디어의 미래, 소셜 MediARverse란?

이미지
  증강현실(AR)은 물리적 현실과 디지털 콘텐츠를 융합해 메타버스의 핵심 기술로 자리매김하고 있다. 특히 소셜 미디어 콘텐츠가 2D 스크린을 넘어 실제 공간에 위치 기반으로 배치될 때, 우리는 이를 “소셜 MediARverse”라 부를 수 있다. 이러한 개념은 사용자에게 주변 환경에서 다른 이들이 남긴 AR 콘텐츠를 탐색하고 공유하도록 만든다. 그러나 공공·반사적·사적 공간이라는 문맥이 달라질 때, AR 콘텐츠에 대한 사용자 경험도 크게 달라질 것으로 예상된다. 연구 배경 및 목적 현재 AR 소셜 네트워크 연구는 주로 공공 공간에서의 사회적 수용성에 집중돼 왔다. 그러나 개인 주거지나 미술관·카페 같은 반사적 공간, 나아가 거리·광장 같은 공공 공간에서 AR 콘텐츠를 어떻게 공유·소비할지에 대한 이해는 부족하다. 본 연구는 세 가지 공간 유형(사적·반사적·공공), 두 가지 콘텐츠 형태(정적 vs. 동적), 두 가지 차원(2D vs. 3D)을 조합해, 사용자가 어떤 맥락에서 AR 콘텐츠를 공유·소비할 의도를 가지는지 조사한다. 주요 방법론 110명의 참가자가 온라인 설문에 참여했으며, 세 가지 유형의 틱톡 영상(댄스, 립싱크, 드로잉)을 2×3×2=12가지 조건으로 가공해 총 36개의 AR 영상을 제공했다. 참가자는 각 영상이 자신에게 적합하다고 느끼는지, 공유·소비 의향이 어떠한지를 평가했으며, 감정(Self-Assessment Manikin), 편안함, 주관적 적합성 등의 척도를 사용했다. 온라인 설문 방식은 현실의 외부 영향을 통제하진 못하지만, 다양한 참가자 풀을 확보해 일반화 가능한 설계 지표를 도출하는 데 유용하다. 핵심 결과 동적 콘텐츠 vs. 정적 콘텐츠 동적(애니메이션) AR 콘텐츠는 정적 콘텐츠보다 전반적으로 긍정적인 반응을 이끌어냈다. 참가자들은 움직임이 있는 AR이 더욱 흥미롭고 몰입감을 제공한다고 평가했다. 또한, 사적 공간에서 AR 콘텐츠를 공유·소비하는 것이 가장 편안한 것으로 나타났다. 2D vs. ...

협업 필터링의 진화: 비음수/이진 행렬 분해와 이징 머신이 만드는 추천 시스템의 미래

이미지
서론: 추천 시스템의 핵심, 협업 필터링 우리가 넷플릭스에서 영화를 고르거나, 아마존에서 제품을 추천받을 때, 그 배후에서 작동하는 핵심 기술이 바로 "협업 필터링(collaborative filtering)"이다. 이 기술은 사용자 간, 아이템 간의 유사성을 분석하여 개인화된 추천을 제공한다. 그러나 이 방식은 본질적으로 대규모 결측값(missing values)을 포함하는 희소(sparse) 행렬 데이터를 다뤄야 하는 과제를 안고 있다. 전통적인 협업 필터링은 비음수 행렬 분해(NMF: Nonnegative Matrix Factorization)를 주로 사용해 왔다. 그러나 최근 일본 오차노미즈대학과 도시바의 공동연구팀은 새로운 방법인 **비음수/이진 행렬 분해(NBMF: Nonnegative/Binary Matrix Factorization)**와 **이징 머신(Ising machine)**을 결합한 모델을 제안하였다. 본 블로그에서는 이 논문의 핵심 내용을 분석하고, 그 의미와 응용 가능성을 깊이 있게 살펴보고자 한다. 비음수/이진 행렬 분해(NBMF)란 무엇인가? NBMF는 기존의 NMF를 확장한 개념이다. NMF에서는 사용자-아이템 평점 행렬 를 두 개의 비음수 행렬 와 로 분해하여 로 근사한다. 이 방식은 해석 가능성과 계산 효율성 측면에서 장점이 있다. 반면, NBMF에서는 행렬을 이진(0 또는 1)로 제한한다. 즉, 아이템은 몇 개의 특징(기저 벡터)만을 선택적으로 조합해 표현된다. 이 방식은 모델의 해석력을 높이고 과적합(overfitting)을 방지하는 데 유리하다. 특히, 이진 제약 덕분에 문제를 조합최적화(combinatorial optimization) 형태로 전환할 수 있다는 점이 핵심이다. 이징 머신: 조합최적화를 위한 새로운 계산 패러다임 이징 머신은 본래 스핀 물리학의 에너지 최소화 모델에서 유래된 계산 장치다. 최근에는 조합최적화 문제를 빠르게 해결할 수 있다는 장점 덕분에 머신러닝에도 활용되고 있...

침입자를 잡아내는 인공지능, 똑똑하고 빨라졌다

이미지
  ― 복잡한 데이터를 다듬는 ‘두 단계 기능 선택 프레임워크(2P-FSID)’ 등장 보이지 않는 전쟁터가 있다. 데이터가 넘실거리는 인터넷 세상 속, 악성 해커들과 그것을 막으려는 시스템 간의 숨 막히는 전쟁이다. 기업, 병원, 정부 기관, 어느 곳이든 데이터가 있다면 그 데이터는 곧 타깃이 된다. 문제는 이 싸움에서 방어 측이 점점 더 힘에 부치고 있다는 것이다. 왜일까? 해커들이 더 똑똑해졌기 때문일까? 그것도 있지만, 사실 이유는 더 단순하다. 너무 많은 데이터를 다뤄야 하기 때문 이다. 그 안에서 ‘이상 징후’를 포착하기란 찾기 힘든 바늘을 찾는 일과도 같다. 여기, 이 문제를 정확히 짚어낸 연구가 있다. 인도 벨로르공대의 C. Rajathi와 Rukmani Panjanathan 연구팀이 제안한 ‘2P-FSID’ 프레임워크가 바로 그것이다. 말 그대로 두 단계(2-Phase)의 기능 선택(Feature Selection) 시스템 인데, 복잡한 데이터를 줄이면서도 침입 탐지 성능을 끌어올린 획기적인 접근법이다. 이상 징후를 가려내는 기술, 그런데 ‘기능’이 너무 많다? 오늘날 대부분의 네트워크 보안 시스템은 **기계학습(Machine Learning)**에 기반해 이상 징후를 찾아낸다. 특정한 패턴을 학습해서, 평소와 다른 행동이 감지되면 경고를 울리는 식이다. 하지만 이런 시스템의 가장 큰 약점은 ‘데이터 차원’이 너무 크다 는 것이다. 예컨대 하나의 연결에 대해 40가지, 50가지의 특징(속성)을 분석해야 하는데, 그 중 상당수는 사실상 의미 없는 정보일 수 있다. 이렇게 불필요한 정보까지 모두 처리하면 속도는 느려지고 정확도는 떨어지며, 거짓 경고도 늘어난다 . 특히 새로운 유형의 공격에 대해서는 효과적으로 대응하지 못한다. 따라서 진짜 중요한 정보만 골라내는 '기능 선택(feature selection)' 과정이 중요해졌다. 그래서, 연구팀은 어떻게 했을까? Rajathi와 Panjanatha...

눈 건강 지키는 인공지능, 이제는 스스로 배운다!

이미지
  OCT-SelfNet, 의료 데이터 부족 문제를 뚫고 나서다 눈은 마음의 창이라고들 한다. 그런데 이 창에 이상이 생기면 삶의 질 자체가 달라진다. 특히 나이 관련 황반변성(AMD) 같은 질환은 실명까지 이어질 수 있어 조기 진단이 무척 중요하다. 하지만 정작 병원 현장에서는 환자의 눈 상태를 판별하는 데 사용할 수 있는 충분한 의료 이미지 데이터 가 턱없이 부족하다. 이유는 간단하다. 환자 정보 보호 때문이다. 이 문제를 해결하려면 어떻게 해야 할까? 미국 노스캐롤라이나대학교 샬럿캠퍼스의 연구팀은 새로운 방식으로 접근했다. 그들은 AI가 스스로 배우는 능력 , 즉 **자기지도학습(Self-Supervised Learning)**을 활용해 눈 질환 진단 인공지능 모델 을 만들어냈다. 이름하여 OCT-SelfNet . 이제 인공지능은 의사에게 전부 배우지 않아도 된다! 데이터가 부족해도 AI는 배운다? 기존 인공지능은 수천 장의 이미지와 그에 대한 정답(라벨)이 있어야만 학습할 수 있었다. 하지만 의료 현장에서는 그렇게 많은 데이터를 쉽게 구할 수 없다. 특히 개인 정보를 포함한 정밀한 의료 영상은 더욱 그렇다. 여기서 OCT-SelfNet은 한 수 앞선 전략을 썼다. 바로 **'라벨이 없는 데이터'**로 먼저 훈련시키는 것이다. 이것이 바로 자기지도학습 . 좀 더 쉽게 말하면, 퍼즐의 일부를 가린 뒤 남은 조각만 보고 원래 그림을 맞추게 하는 훈련을 반복하며, 인공지능이 스스로 이미지를 이해하는 능력을 키우는 방식이다. 퍼즐 훈련을 거친 AI는 그 다음 단계에서 진짜 진단 업무에 투입된다. 세 개의 병원 데이터로 하나의 강력한 AI를 만들다 이 AI는 단순히 한 병원의 이미지 데이터만 보고 훈련되지 않았다. 연구진은 세 곳의 서로 다른 기관에서 수집한 OCT 이미지 (망막 단층 촬영 이미지)를 모아 데이터의 다양성을 확보했다. 자기지도학습 단계 에서는 이 데이터들을 모두 섞어 AI가 다양한 형태의 눈을 ...

금융권에서 책임 있는 AI 구현의 실체: 기술 너머의 비기술적 장벽과 기업 디지털 책임의 가능성

이미지
` 서론: AI가 바꾸는 금융의 미래, 그러나 남겨진 질문들 금융 산업은 인공지능(AI)과 생성형 AI(GenAI)의 도입으로 비약적인 발전을 이루고 있다. 고객 맞춤형 서비스, 사기 탐지, 신용 점수 산정 등에서 AI는 혁신을 선도하고 있다. 그러나 기술이 빠르게 발전할수록 이에 대한 책임 있는 사용과 윤리적 관리가 더욱 중요해진다. 바로 이 지점에서 '책임 있는 AI(Responsible AI)'라는 개념이 등장한다. 하지만 지금까지의 논의는 주로 기술적, 법적 측면에 치중되어 왔고, 실제 기업 현장에서 이를 구현하는 데 필요한 비기술적 요소에 대한 논의는 부족했다. 본 글에서는 최근 발표된 논문 "Scratching the Surface of Responsible AI in Financial Services"를 바탕으로 금융 산업에서 책임 있는 AI 구현에 어떤 비기술적 장벽이 존재하며, '기업 디지털 책임(Corporate Digital Responsibility, CDR)'이 이를 어떻게 보완할 수 있는지를 깊이 있게 살펴본다. 책임 있는 AI, 왜 중요한가? 책임 있는 AI란 단순히 성능 좋은 AI 시스템을 만드는 것이 아니라, 공정성, 투명성, 설명 가능성, 책임성 등을 내포하는 포괄적인 지침 체계다. 이는 기술을 안전하게 활용하면서도 사회적 가치와 윤리를 실현하려는 노력의 일환이다. 특히 금융 산업에서는 한 번의 알고리즘 오류가 수백만 명의 고객에게 영향을 줄 수 있기 때문에, 책임 있는 AI의 구현은 선택이 아니라 필수다. 그러나 현실은 녹록지 않다. 수많은 원칙과 규정이 쏟아지는 반면, 이를 실제 업무에 적용하는 방법에 대한 구체적 가이드라인은 부족하다. AI 원칙이 선언적 수준에 머물고 실천으로 이어지지 못하는 이유는 어디에 있을까? 연구의 핵심: 비기술적 장벽의 정체 이 논문은 유럽 내 15개 금융기관의 실무자와 전문가들을 대상으로 심층 인터뷰...

병원 기록도 똑똑하게! 아랍어로 말하는 작고 강한 AI, ‘AraSum’

이미지
의료 현장은 매일같이 기록 전쟁이다. 의사들은 진료 후 환자 상태를 요약하고 정리하느라 많은 시간을 소모하고, 이 과정에서 작은 실수 하나가 환자의 생명을 좌우할 수 있다. 그런데 만약 환자와 의료진의 언어가 다르다면? 예를 들어, 복잡하고 다층적인 언어인 아랍어를 사용하는 환경이라면? 이야기는 훨씬 더 복잡해진다. 이런 문제를 해결하고자 등장한 것이 바로 ‘AraSum’이라는 이름의 인공지능 요약 도우미다. 최근 《Scientific Reports》에 실린 연구에 따르면, AraSum은 거대 인공지능 없이도 빠르고 정확하게 아랍어 의료 대화를 요약하는 작고 강력한 모델이다. 게다가 환경까지 생각한다니, 이쯤 되면 의료계의 새로운 비서가 될 만하다. 아랍어 의료 요약, 왜 이렇게 어렵나? 우선 아랍어 자체가 녹록지 않다. 단어가 형태에 따라 확 바뀌는 ‘형태소 풍부’ 언어고, 공식 문어체와 일상 구어체가 완전히 다른 ‘디글로시아(diglossia)’ 구조를 가지고 있다. 이는 환자와 의사가 말하는 방식 자체가 다르다는 뜻이다. 여기에 의학 용어까지 얹으면… 당연히 기존의 대형 언어 모델(LLM, Large Language Model)은 애를 먹을 수밖에 없다. 실제로 지금까지 등장한 아랍어 전용 언어 모델들(예: AraBERT, JAIS 등)도 일반적인 텍스트에는 꽤 능했지만, 의료 요약처럼 전문성과 정밀성이 동시에 필요한 작업에서는 한계를 보였다. 그래서 나온 해결책: 작지만 똑똑한 ‘AraSum’ 연구팀은 대형 모델의 성능은 유지하면서, 크기는 줄이고 효율은 높이는 ‘지식 증류(Knowledge Distillation)’ 기법을 사용했다. 쉽게 말해, 똑똑한 선생님 두 명에게 배운 내용을 한 명의 똘똘한 학생에게 압축 전수하는 방식이다. 여기서 그 ‘학생’이 바로 AraSum이다. AraSum은 아랍어 의료 대화 요...

의사 대신 챗봇에게 물어본 심혈관 질환 위험도

이미지
“당신의 심장 건강, AI가 알려준다” 당신의 심장이 위험하다는 걸 가장 먼저 알려주는 건 누구일까? 의사일까, 가족일까, 아니면... 챗봇일까? 최근 한 연구팀이 선보인 AI 챗봇 ‘ChatCVD’ 는, 사용자의 건강 정보를 바탕으로 심혈관 질환(CVD) 위험도를 평가하고, 개인 맞춤형 건강 조언까지 제공한다. 게다가 이 챗봇을 만들기 위해 사용한 인공지능 모델이, 꼭 전문적인 의학용 AI일 필요는 없다는 사실도 밝혀졌다. 놀랍지 않은가? 우리가 흔히 쓰는 범용 인공지능이, 병원에서 사용하는 의료 특화 AI만큼이나 효과적으로 건강을 판단할 수 있다는 것이다. 질병 예측, AI의 새로운 무대 전 세계에서 매년 2,000만 명 이상이 심혈관 질환으로 목숨을 잃는다. 예방과 조기 진단이 무엇보다 중요한 이 질환은, 사람들의 생활 습관과 밀접하게 연관되어 있다. 하지만 누구나 병원에 가서 정밀 검진을 받을 수 있는 건 아니다. 그래서 연구진은 AI를 활용해 이런 한계를 넘고자 했다. 이번 연구의 핵심은 단순했다. “ 의료 전문 인공지능이 정말로 더 뛰어난가? ” 이 물음에 답하기 위해 연구팀은 두 부류의 인공지능 언어 모델을 실험에 사용했다. 하나는 의료 논문과 기록을 학습한 의학 특화 모델 , 다른 하나는 일반적인 언어를 학습한 범용 모델 이었다. 두 모델은 모두 미국 CDC의 건강 조사 데이터인 BRFSS 를 바탕으로 학습되었다. 이 데이터는 참가자의 나이, 식습관, 운동 습관, 질병 이력 등 수백 가지 항목으로 구성되어 있어, 실제 환자와 유사한 상황을 구성할 수 있다. 하지만 단순한 숫자나 설문 데이터를 모델에 넣어선 원하는 결과를 얻기 어렵다. 그래서 연구팀은 이 데이터를 문장으로 바꿨다. 예를 들면, “고혈압 이력 있음”을 “이 사람은 고혈압 병력이 있다”로 자연스럽게 표현한 것이다. 이렇게 만든 프로필을 기반으로 AI는 각 참가자의...

하이브리드 시뮬레이터 HySim: 시각적·촉각적 실감으로 차세대 수술 훈련 혁신

이미지
서론: 왜 ‘하이브리드 시뮬레이터’인가? 최소침습 수술 교육의 한계 현대 외과 분야에서는 최소침습 수술(로봇수술·복강경수술)이 환자 회복 시간 단축과 합병증 감소라는 명확한 이점을 제공하지만, 이를 위해 요구되는 정교한 수술 기법의 습득은 쉽지 않다. 기존 박스 트레이너(Box trainer) : 실물 모형을 이용해 촉각(feedback)을 익히는 데는 유리하나, 수술 시야의 시각적 사실감이 떨어진다. VR 시뮬레이터 : 현실감 있는 수술 장면을 제공하나, 촉각적 피드백이 부족해 실제 조직의 탄력·저항감을 체득하기 어렵다.  HySim 개요 HySim이란? HySim은 “Hybrid Simulation”의 약자로, 실제 물리 조직(실리콘 펜텀)과 가상 조직(3D 메쉬)을 하나의 수술 시야에 통합함으로써 양쪽의 장점을 모두 살린 시뮬레이션 프레임워크다.  시각적 실감 : VR 기반 가상 조직을 고해상도로 렌더링하여 실제 수술 장면과 유사한 시야 제공  촉각적 실감 : 실리콘 조직을 이용해 바늘 꿰기·봉합 등 실제 조직의 저항감·탄력성을 체험 스코프 추적 : 광학 트래킹 시스템으로 내시경 스코프와 시뮬레이터 박스의 위치를 실시간 동기화 HySim의 핵심 구성 1) 하드웨어 구성 복강경 박스 트레이너 실리콘 펜텀 조직 광학 트래킹 카메라(V120:Trio) 내시경 스코프(da Vinci Xi 호환) 2) 소프트웨어 모듈 비디오 모듈 : 스코프 영상 획득 및 크로마키 처리  트래킹 모듈 : 4×4 변환 행렬로 스코프·박스 위치 계산 렌더링 모듈 : VTK 기반 혼합 현실 장면 생성  GUI 모듈 : 사용자 설정 및 가상 조직 배치 지원. 이들 모듈 간 멀티스레딩(parallel processing)을 통해 실시...

애플 비전 프로와 AI가 바꿔놓은 3D 콘텐츠 제작의 판

이미지
“꿈을 공간 위에 그리다” "가상 현실 속에서 손짓만으로 숲 속 오두막을 만들다" – Dream Space 시스템은 상상을 입체로 구현한다. “VR 안에서 말하고, 바라보고, 손짓만으로 건축을 한다면 어떨까?” 이제 더 이상 공상 과학 소설 속 이야기만은 아니다. 애플의 신형 XR 기기 ‘Vision Pro’와 생성형 AI 기술을 결합한 새로운 3D 콘텐츠 제작 시스템 ‘Dream Space’가 그 상상을 현실로 만들고 있다. 런던 예술대학교와 중국의 기술 기업이 공동 개발한 이번 연구는, 기존 3D 콘텐츠 제작 방식의 복잡함과 비효율성을 뒤엎고, 누구나 20분 만에 가상 공간을 만들 수 있는 새로운 인터페이스를 제안했다. 그리고 실험 결과는 놀라웠다. 전문가가 아니어도 손짓과 시선, 음성만으로 복잡한 VR 공간을 단시간에 구현해냈다. “마우스와 키보드, 이제는 안녕” 3D 콘텐츠를 만든다는 건 여전히 고된 작업이다. 모델링 툴을 익히는 데만 수개월, 하나의 캐릭터를 완성하려면 40~60시간이 필요하다는 게 업계 통설이다. 게다가 대부분의 소프트웨어는 마우스와 키보드 기반이라, 실제 공간과 단절된 화면 속에서 작업을 이어가야 했다. 하지만 이런 한계를 애플 비전 프로 와 생성형 AI 가 허물었다. 연구팀이 개발한 ‘Dream Space’는 사용자가 말로 아이디어를 설명하면, AI가 바로 3D 모델이나 360도 환경을 만들어 보여준다. 예를 들어, “숲속 오두막”이라고 말하면 실제처럼 둘러볼 수 있는 가상 숲 공간이 생성된다. 그뿐만 아니다. 생성된 모델은 손으로 직접 움직이고 회전하며, 시선만으로도 객체를 선택할 수 있다. 마치 진짜 사물을 조립하듯 공간 위에서 작업이 이루어지는 것이다. 디자이너의 ...

신뢰받는 원격의료의 새 지평: 양자 모델과 MAS의 만남

이미지
서론: AI의료의 한계와 새로운 대안 AI 챗봇은 의료 접근성을 크게 개선해왔다. 하지만 복잡한 응급 상황에서의 대응력과 정보 신뢰성 문제는 여전히 해결되지 않은 과제다. 특히, 단일 에이전트 기반 시스템은 다단계 의사결정에서 오류 가능성과 "환각(hallucination)" 현상이 존재하며, 이는 곧 환자 안전과 직결된다. 이러한 맥락에서 멀티 에이전트 시스템(Multi-Agent System, MAS) 은 하나의 유망한 해결책으로 떠오르고 있다. 본 논문은 MAS를 원격의료에 적용하고, 여기에 양자 기반 신뢰 측정 모델 을 더해 신뢰성과 효율성을 극대화한 시스템을 제안한다. MAS란 무엇인가: 집단 지능의 협업 구조 MAS는 각기 다른 기능을 가진 AI 에이전트들이 팀처럼 협력하는 시스템이다. 예를 들어, 논문에서 제시된 MAS는 다음과 같은 에이전트로 구성되어 있다: 증상 분석 에이전트 : 환자의 증상 텍스트를 분석하여 진단 단서 제공 위험 평가 에이전트 : 긴급도나 중증도를 판단 검증 에이전트 : 다른 에이전트들의 정보를 상호 검토 사용자 숙련도 에이전트 : 응급처치에 대한 사용자의 이해도를 고려 조언 에이전트 : 상황에 맞는 행동지침 제공 이 구조는 단일 AI가 놓치기 쉬운 오류나 편향을 상호보완적으로 해결할 수 있다는 장점이 있다. 양자 기반 신뢰 측정: 인간-기계 협력의 새로운 방식 MAS의 또 다른 혁신 요소는 Qiskit 양자 모델을 활용한 신뢰 측정 기법 이다. 이 모델은 사용자의 감정과 반응을 실시간으로 분석해 신뢰도를 0~100%의 수치로 정량화한다. 이는 기존의 사후 설문 방식보다 다음과 같은 이점을 가진다: 실시간성 : 사용자의 질문, 반응 속도 등을 바탕으로 즉시 신뢰도 추정 비가시적 정보 추론 : 사용자 표현 속 감정 및 불안 정도까지 고려 신뢰 추이...